标签【policy gradient】

花费 14 ms

强化学习方法小结

花了一天时间大致了解了强化学习一些经典算法，总结成如下笔记。笔记中出现不少流程图，不是我自己画的都标了出处。铺垫 1. Bellman方程在介绍强化学习算法之前先介绍一个比较重要的 ...

强化学习（九）：策略梯度

Policy Gradient Methods 之前学过的强化学习几乎都是所谓的‘行动－价值’方法，也就是说这些方法先是学习每个行动在特定状态下的价值，之后在每个状态，根据当每个动作的估计价值进行选 ...